Skip to main content

在 Nvidia Jetson 上的语音字幕生成

介绍

如今,我们每天都有很多会议,但有些会议内容并不打算公开。将会议内容发送到云端进行录制并返回字幕可能对会议隐私构成重大威胁。最重要的是,如果网络延迟,您将丢失会议内容。

在这里我们向您介绍在 Jetson 上的语音字幕生成,它可以提供实时语音转字幕服务,同时避免互联网上的信息泄露。会议内容可以使用 AI 模型以字幕形式转录并显示在屏幕上,这可以保护会议隐私并减少会议记录员的工作量。

硬件设置

  • reComputer(或其他基于 Jetson 的设备)

left

  • reSpeaker(或其他 USB 接口麦克风)

auto

  • 硬件连接

pir

准备运行环境

步骤1. 安装 Riva ASR 服务器:

请参考此 wiki来安装 Riva ASR 服务器。

在您的终端中(Ctrl+Alt+T),输入 sudo docker ps,您将看到类似以下内容,这意味着您已完成第一步。

pir

步骤2. 安装 flask:

打开终端(Ctrl+Alt+T)并使用以下命令安装 flask:

pip3 install flask
python3 -c 'import flask; print(flask.__version__)

如果您看到类似以下内容,说明您已经完成了这一步。

pir

步骤3. 升级 pip setuptools wheel:

# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'

在您的终端中(Ctrl+Alt+T),输入 pip --version 您将看到类似以下内容,这意味着您已完成 pip 升级。

pir

在您的终端中(Ctrl+Alt+T),输入 python3 -c 'import setuptools; print(setuptools.__version__) 如果您得到类似以下内容,这意味着您已升级 setuptools。

pir

在您的终端中(Ctrl+Alt+T),输入 wheel version 您将看到类似以下内容,这意味着您已完成 wheel 升级。

pir

步骤4. 安装 pyaudio:

# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'

如果您的终端显示如下内容,说明您已完成最后一步,恭喜!

pir

让我们运行它

git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py

项目展望

在这个项目中,我们使用 Riva ASR Server 来实时捕获麦克风输入的数据并在网页上显示。未来我们将添加更多应用,如将一种语言翻译成另一种语言,以及提供更快的响应速度。

Loading Comments...